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摘要 : 天 文海 量 数据 的 出 现 给 天 文 软件 的 开发 带 来 了 诸多 挑战 。 近 年 来 ， 随 着 并 行 计算 
技术 的 发 展 ，MPI + GPU 逐渐 成 为 当前 高 性 能 天 文 数据 处 理 的 主要 模式 。 针 对 太阳 高 分 辨 图 
像 重 建 中 如 何 提高 重建 性 能 这 一 问题 ， 对 其 中 的 数据 读 取 与 数据 分 发 方法 进行 了 系统 研究 。 
传统 的 MPI 并 行 处 理 时 ， 主 进程 将 原 图 切割 成 子 块 ， 随 后 将 子 块 发 送 到 各 子 进程 重建 ， 重 
建 后 的 结果 返回 主 进程 。 当 子 进程 数量 较 大 且 计 算 节 点 数量 较 少 时 ， 这 种 数据 分 发 过 程 显著 
增加 通讯 时 长 ， 影 响 整 个 重建 过 程 的 效率 。 提 出 MPI+ CUDA 的 一 种 树 状 数据 分 发 方法 ， 给 
出 了 算法 的 基本 思路 与 实现 方法 。 实 验 结 果 表 明 ， 树 状 分 发 方式 比 一 般 采 用 的 平行 分 发 方式 
可 以 提高 速度 近 一 倍 ， 成 果 对 天 文海 量 数据 开发 处 理 有 一 定 的 借鉴 作用 。 
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-— 天 文海 量 数据 的 出 现 极 大 地 推动 了 高 性 能 计算 技术 的 发 展 。 其 中 ， 图 形 处 理 器 ( Graphics Processing 
um Unit, GPU) 作为 新 一 代 高 密度 分 布 计算 体系 ， 成 为 当前 高 性 能 计算 的 一 个 亮点 。 美 国 NVIDIA 公司 推 
n 出 的 统一 计算 设备 架构 (Compute Unified Device Arcthitectuee, CUDA) 技 术 ， 以 C 语言 为 基础 ， 因 其 良 
好 的 可 编程 架构 和 完整 的 服务 成 为 日 前 使 用 最 广泛 的 通用 计算 图 形 处 理 器 (General Purpose GPU, 
GPGPU) EH" , 

消息 传递 接口 (Message Passing Interface, MPI) 是 最 常用 的 高 性 能 计算 支撑 环境 '， 结 合 MPI 与 
CUDA 技术 的 优点 ， 实 现 MPI CUDA 结合 的 混合 编程 模型 是 一 种 海量 科学 数据 处 理 的 主流 模式 。 这 
种 混合 编程 模型 中 ，MPI 负责 将 任务 并 行 分 发 ，CUDA 负责 并 行 计算 ,在 大 幅 提 高 并 行 效率 的 同时 ， 
= 使 得 超大 海量 数据 的 处 理 成 为 可 能 。 


存 贮 硬件 的 存储 量 后 再 慢 慢 处 理 ， 天 文 工 作者 更 加 希望 能 够 实时 处 理 观 测 得 到 的 天 文 图 像 ， 从 而 减少 
内 存 开销 ， 提 高 整个 天 文 观测 工作 的 效率 。 随 着 岁 形 处 理 器 的 快速 发 展 以 及 MPI + GPU 模型 的 逐渐 
成 熟 与 应 用 ， 天 文 工 作者 逐渐 尝试 使 用 MPI + GPU 的 高 性 能 并 行 模式 解决 天 文海 量 数据 处 理 的 难题 。 
本 文 以 开发 高 性 能 天 文 软件 时 遇 到 的 数据 分 发 问题 为 研究 背景 ， 系 统 研 究 了 基于 MPI + GPU B 
型 的 天 文海 量 数据 处 理 过 程 中 的 数据 分 发 方法 ,结果 可 为 天 文海 量 数据 处 理 过 程 提供 一 种 新 思路 。 


1 MPI + CUDA 混合 编程 模型 概述 


MPI + CUDA 混合 编程 模型 充分 结合 了 MPI 的 粗 粒 度 并 行 与 CUDA 的 细 粒 度 并 行 ， 具 有 高 度 的 并 行 
效率 ， 也 是 上 日 前 主流 的 并 行 计算 模型 。 文 [13-4] 使 用 这 种 混合 编程 模型 ， 测 试 了 大 规模 矩阵 乘 问题 的 并 
行 计算 能 力 ， 实 验 结果 证 明了 该 模型 能 够 显著 提升 并 行 效率 。 一 种 简易 的 MPI + CUDA 混合 模型 如 图 1。 
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从 图 1 可 以 看 出 ， 在 进程 间 通 信 时 是 中 央 处 
理 器 到 图 形 处 理 器 之 间 的 数据 传输 ， 而 不 是 传统 
的 将 数据 在 各 节点 的 中 央 处 理 器 之 间 传 输 ， 再 将 
数据 从 中 央 处 理 器 拷贝 到 图 形 处 理 器 进行 计算 。 
这 是 因为 使 用 了 英 伟 达 公 司 的 CUDA-aware MPI® 
技术 ,该 技术 实现 了 对 图 形 处 理 器 缓存 的 直接 访 
间 。CUDA-aware MPI 技术 可 以 很 好 地 避免 在 使 
用 MPI + CUDA 并 行 计 算 时 中 央 处 理 器 与 图 形 处 
理 器 之 间 数 据 拷贝 花费 大 量 时 间 ， 从 而 进一步 提 
高 MPI + CUDA 的 并 行 效率 ， 降 低 了 编程 的 复杂 
度 ， 这 也 使 得 MPI + GPU 的 模型 得 到 进一步 的 
认可 和 应 用 。 
MPI + CUDA 的 混合 编程 模型 虽然 可 以 取得 
很 好 的 加 速效 果 ， 但 为 了 能 够 进一步 提高 系统 运 
eae 行 速度 ， 一 方面 可 以 扩展 硬件 环境 ， 建 立 更 大 的 
PP 并 行 集群 进行 计算 ， 另 一 方面 通过 改进 MPI + CUDA 的 通信 方式 ， 减 少 通信 开销 ， 从 而 提高 系统 的 运 
行 速 度 。 但 根据 Amdahl 定律 5 : 处 理 器 数目 的 无 限 增 大 ， 并行 系统 所 能 达到 的 加 速 比 上 限 为 
1/S(S=1/(1 -a +a/n), P, a 为 并 行 计算 部 分 所 占 比例 ，n 为 并 行 处 理 节点 个 数 。 可 以 看 出 并 行 
加 速 不 仅 受 限于 程序 的 串 行 分 量 ， 而 且 也 受 限于 并 行程 序 运 行 时 的 额外 开销 。 一 个 更 大 的 并 行 集 群 由 
于 通信 时 长 等 因素 ， 不 一 定 能 取得 更 理想 的 效果 。 因 此 ， 对 MPI+ CUDA 混合 编程 模型 的 研究 有 利于 
b 为 该 模式 寻找 一 种 更 高 效 的 通信 方式 ， 从 而 进一步 提高 MPI + CUDA 混合 编程 模型 的 效率 。 


2 MPI 与 CUDA 在 天 文 数 据 处 理 的 相关 工作 


图 1 MPI+CUDA 混合 模型 示意 图 
Fig.1 Adiagram of hybrid MPI+ CUDA model 


随 着 消息 传递 接口 的 广泛 应 用 与 图 形 处 理 器 的 快速 发 展 ， 消 息 传 递 接口 和 CUDA 在 天 文 图 像 数 
据 处 理 方向 的 应 用 取得 了 一 定 的 进展 。 文 [6] 在 CUDA 环境 下 实现 了 一 个 Ha 全 日 面 云 污染 实时 识别 
和 修复 系统 。 文 [7] 利 用 图 形 处 理 器 对 MarkSB 数据 进行 处 理 ， 对 以 8 MB/s 的 实时 采样 ， 可 以 在 0.51 s 
内 处 理 完 成 ， 实 现 了 对 脉冲 星 观测 数据 实时 处 理 的 要 求 。 文 [8] 实 现 了 基于 图 形 处 理 器 并 行 计算 的 
E Levell 级 重建 程序 ， 使 程序 在 不 改变 原 有 处 理 方式 的 情况 下 将 重建 速度 提高 近 30 倍 ， 达 到 了 准 实时 
o 重建 的 效果 。 文 [9] 利用 图 形 处 理 器 实现 基于 相位 差异 ( Phase. Diversity, PD) 的 地 基 望 远 镜 图 像 恢复 
技术 ， 发 挥 了 高 性 能 计算 的 优势 ， 取 得 了 数 十 倍 的 加 速效 果 。 文 [ 10] 在 研究 了 太阳 高 分 辩 图 像 重 建 
算法 在 图 形 处 理 器 上 的 实现 ， 为 天 文 数据 处 理 算法 在 图 形 处 理 器 上 的 并 行 实现 提供 了 方向 。 文 [11] 
利用 高 性 能 集群 与 消息 传递 接口 技术 加 速 选 帧 位 移 县 加 (Levell) 重建 太阳 高 分 辨 图像 ， 相 比 以 前 的 
IDL， 实 现 了 23 倍 显著 加 速 ， 并 提出 了 基于 CUDA 的 子 块 图 像 重建 新 的 算法 ， 给 天 文 图 像 数据 处 理 提 
供 了 很 多 新 的 并 行 实现 方法 ， 展 望 了 MPI + CUDA 混合 编程 方法 在 天 文 图 像 重 建 上 的 可 能 应 用 。 

以 上 研究 为 MPI + CUDA 模式 在 天 文海 量 数据 处 理 方向 的 应 用 提供 了 很 好 的 支持 。 但 这 些 基本 集 
中 于 并 行 方法 的 研究 ， 对 其 中 的 数据 分 发 还 没有 进行 深入 的 讨论 。 部 分 研究 工作 已 经 发 现 数据 分 发 比 
较 耗 时 ， 从 而 影响 系统 的 运行 效率 。 


3 一 种 基于 MPI + CUDA 的 数据 分 发 方法 


在 高 分 辨 图 像 重建 过 程 中 ， 需 要 将 原 图 切割 成 子 图 ， 然 后 对 各 个 子 图 进行 图 像 重 建 算法 的 处 理 ， 


(D https://devblogs.nvidia.com/ parallelforall/ introduction-cuda-aware-mpi/ 
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最 后 将 处 理 后 的 子 图 像 拼 接 整合 。 通 常 的 做 法 是 使 用 MPI 主 进程 在 中 央 处 理 器 上 将 原 图 切 制 成 子 块 ， 
然后 将 子 块 发 送 到 各 子 进程 对 应 的 图 形 处 理 器 上 重建 。 当 多 个 进程 对 同一 个 原 图 进行 取 数 据 时 会 出 现 
等 待 的 情况 ， 从 而 影响 效率 。 

为 了 提高 重建 效率 ， 提 出 了 在 计算 节点 数量 较 少 时 可 以 采用 一 种 树 状 MPI + GPU 的 数据 分 发 模 
型 ,基本 思想 是 将 原始 数据 分 割 到 各 个 图 形 处 理 嚣 内存， 再 通过 图 形 处 理 器 向 下 一 级 子 进程 进行 数据 
的 切割 和 发 送 ， 图 像 处 理子 进程 向 它们 的 上 一 级 的 多 个 进程 获取 数据 ， 进 而 增加 了 数据 切割 分 发 的 并 
行 度 ， 减 少 了 通信 等 待 时 间 ， 而 且 由 于 图 像 数据 的 分 发 和 处 理 过 程 都 在 图 形 处 理 器 上 执行 ， 从 而 更 进 
一 步 提 高 了 处 理 速度 。 

为 验证 对 比 ， 分 别 以 图 像 重建 算法 在 图 形 处 理 器 上 实现 为 基础 ， 并 利用 对 大 矩阵 的 一 系列 处 理 过 
程 代替 图 像 算法 的 重建 过 程 ， 从 而 只 讨论 数据 分 发 过 程 的 区 别 带 来 的 效率 差异 。 

3.1 实验 设计 
3.1.1 平行 分 发 MPI + GPU 算法 设计 

在 MPI + GPU 图 像 重 建 过 程 中 ， 主 进程 根据 进程 数 循环 将 图 像 切 制 ， 然 后 发 送 到 各 个 子 进程 对 
应 的 图 形 处 理 器 进行 计算 (使 用 CUDA-Aware MPI 机 制 直接 从 中 央 处 理 器 内 存 发 送 到 图 形 处 理 器 内 
存 )。 分 发 方法 如 图 2。 详 细 过 程 ， 主 进程 (0 号 进程 ) 根据 子 进程 号 (假设 是 1 号 进程 ) 切割 一 块 子 图 
发 送 给 1 进程 所 分 配 的 图 形 处 理 器 (假设 是 CPU1) 进 行 运算 。 运 算 完 成 后 1 号 进程 将 结果 发 送 到 主 进 
程 ， 并 判断 原 图 是 否 有 剩余 的 图 像 没有 切割 完成 ， 如 果 有 ， 继 续 为 1 号 进程 切割 子 图 重建 ， 各 个 子 进 
程 依 此 方式 轮番 切割 原 图 进行 运算 ， 直 到 原 图 切割 重建 完毕 。 

3.1.2 WAR MPI + GPU 数据 分 发 设计 

树 状 MPI + GPU 数据 分 发 ， 顾名思义 是 以 一 种 树 的 方式 层 层 发 送 接收 。 该 方法 以 图 形 处 理 器 个 
数 为 基础 ， 将 原始 数据 分 成 若干 块 ， 然 后 在 图 形 处 理 器 上 进行 子 块 的 切割 ， 再 发 送 到 其 余 的 子 进程 ， 
~N 即将 切割 的 过 程 并 行 化 。 分 发 方法 如 图 3。 详细 过 程 : 主 进程 (0 号 进程 ) 根据 图 形 处 理 器 个 数 (假设 
om 为 2) 将 原 图 切割 为 2 等 份 发 送 到 1~2 号 进程 对 应 的 图 形 处 理 器 内 存 (使 用 CUDA-Aware MPI 机制) 。 
NI 重建 子 进程 (假设 3 号 进程 ) 在 为 它 分 配 的 图 形 处 理 器 (假设 为 GPUO) 上 切 制 相应 子 图 进行 重建 ， 直 到 
各 个 图 形 处 理 器 上 的 图 像 (1~2 号 进程 对 应 的 图 形 处 理 器 ) 切割 重建 完毕 ， 然 后 1~2 号 进程 将 它们 的 
子 进程 处 理 后 的 结果 整合 ， 分 别 发 送 到 0 号 进程 整合 。 
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图 2 平行 分 发 MPI + GPU 算法 示意 图 图 3 树 状 MPI+ GPU 数据 分 发 示意 图 
Fig.2 A diagram of flat distribution method Fig.3 A diagram of MPI + GPU hierarchy distribution 
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3.2 实验 及 结果 分 析 
3.2.1 实验 环境 
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实验 环境 包括 两 台 双 6 核 的 中 央 处 理 器 服务 器 ， 安 装 有 2 个 双核 的 K80 KDE bI, REREN 
Ubuntu 14. 04. 4 LTS， 安 装 OpenMPI2. 0. 0, CUDA-7. 5 环境。 


3.2.2 算法 实现 


根据 以 上 实验 设计 ， 实 现 两 种 分 发 方法 ， 其 示意 代码 如 表 1。 


R1 两 种 分 发 方法 示意 代码 


Table 1 Ilustrate code of two distribution methods (E 1) 
平 发 MPI + GPU 树 状 MPI+ GPU 
int main( ) | // 回 收 各 二 级 子 进程 整合 好 的 图 像 , 进 行 最 终 整 合 
// 初 始 矩 阵 while(i<devCount ) | 
init, Matrix( ) ; MPI Recv() ; 
if(rankz 20) | combine( ) ; 


// 根 据 进 程 数 为 各 子 进 程 切割 分 发 子 块 
for(i=1;i<usersize;i++) | 
subfield( ) ; 
MPI Send( ) ; 
| 
// 回 收 子 进程 处 理 好 的 子 块 , 整合 ; 判断 原 图 是 
和 否 切割 完成 ,否则 继续 切割 分 发 子 块 
while( jobs_done<jobs ) | 
MPI Recv() ; 
combine( ) ; 
subfield( ) ; 
MPI Send( ) ; 
jobs done**; 
| 
// 回 收 各 子 进程 最 后 一 次 分 配 的 子 块 , 整合 
while( i<usesize ) | 
MPI Recv() ; 
combine( ) ; 
| 
| else] 
// 子 进程 接收 主 进程 发 送 的 子 块 ， 对 子 块 进行 处 
理 后 发 送 回 主 进程 
MPI_Recv( ) ; 
add_Kernel( ) ; 
MPL send 
| 
MPI. Finalize( ) ; 
| 


树 状 MPI + GPU 


int main( ) | 
/]/ 初 始 矩 阵 
init, Matrix( ) ; 
if(rankz 20) | 
// 主 进程 根据 GPU 数 将 原 图 切割 发 送 到 各 个 2 级 
子 进 程 对 应 的 GPU 
for(i=0;i<devCount;i++) | 
subfield( ) ; 
MPI Send( ) ; 
| 


| 
| 
// 二 级 子 进程 将 GPU 上 的 数据 切割 发 送 到 三 级 子 
进程 对 应 的 GPU 
int tid=rank%devCount 
if( O«rank&&rank «devCount- 1 ) | 
MPI. Recv( ) ; 
for(i-devCount*1;i«user size;it-)| 
if( i96devCount = - tid ) | 
subfield( ) ; 
MPI. Send( ) ; 
| 
| 
// 回 收 三 级 子 进程 处 理 好 的 子 块 ,整合 ;判断 二 级 
子 进程 对 应 的 GPU 上 的 数据 是 否 切割 完成 ,否则 继续 
切割 分 发 子 块 
while( jobs done«jobs) | 
MPI Recv() ; 
combine( ) ; 
subfield( ) ; 
MPI Send( ) ; 
jobs. donet ; 
| 
// 回 收 各 三 级 子 进程 最 后 一 次 分 配 的 子 块 , 整 合 
while(i«j) | 
MPI. Recv( ) ; 
combine( ) ; 
| 
// 二 级 子 进 程 将 整合 好 的 图 像 数 据 发 送 给 一 级 主 进程 
MPI_Send( ) ; 
| else | 
// 三 级 子 进程 接收 二 级 子 进程 发 送 的 子 块 ,对 子 
块 进行 处 理 后 发 送 回 二 级 子 进程 
MPI_Recv( ); 
add_Kernel( ) ; 
MPI Send( ) ; 


| 


MPI Finalize( ) ; 
| 
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3.2.3 实验 及 结果 分 析 

由 于 实验 环境 安装 有 两 个 双核 的 K80 图 形 处 理 器 ， 相 当 于 有 4 个 单 核 的 图 形 处 理 器 ， 因 此 在 实 
验 过 程 中 能 读 到 4 个 图 形 处 理 器 ， 并 同时 使 用 这 4 个 图 形 处 理 器 进行 运算 。 在 实验 中 对 初始 化 的 大 算 
阵 进行 处 理 。 通 过 对 和 矩 阵 的 切割 分 发 实现 高 分 辨 图 像 重 建 过 程 中 图 像 的 切割 和 子 图 的 分 发 ;， 通过 对 算 
阵 的 耗 时 处 理 实现 图 像 重 建 过 程 中 对 子 图 的 一 系列 图 像 算法 的 处 理 。 实 验 分 别处 理 了 10 240 x 10 240 
的 大 矩阵 和 20 480 x 20 480 的 大 和 矩阵， 切割 的 子 块 大 小 分 别 为 1024 x 1024 和 2 048 x 2 048， 然 后 在 
图 形 处 理 吉 上 对 切割 的 子 块 进行 耗 时 处 理 ， 当 子 进 程 对 数据 子 块 的 处 理 结束 后 将 结果 发 送 到 上 一 级 进 
程 整合 。 通 过 调用 不 同 的 进程 数 和 处 理 不 同 大 小 的 数据 块 得 到 如 图 4 的 实验 结果 。 

图 4 为 在 一 台 服 务 器 上 对 10240 x 10240 矩阵 的 处 理 结果 ， 图 5 为 在 一 台 服 务 器 上 对 20 480 x 20 480 
和 矩阵 处 理 的 结果 。 由 图 4 可 以 看 出 ， 随 着 进程 数 和 通信 开销 的 增加 ， 处 理 时 间 也 随 之 增加 。 树 发 方式 
虽然 也 呈 上 升 趋势 但 总 体 要 优 于 平 发 方式 。 由 图 S 可 以 看 出 ， 平 发 随 着 进程 数 的 增加 ， 呈 现 一 个 四 型 
曲线 。 这 是 由 于 随 着 处 理 进程 的 增加 ， 当 进程 数 增加 到 一 定 的 程度 其 处 理 效率 增加 ( 如 增加 到 15 个 
进程 ) ， 但 超出 之 后 效率 就 会 由 于 通信 时 间 的 增加 而 变 低 。 树 发 方式 还 是 比 平 发 方式 有 大 概 1 倍 的 性 
能 提升 。 
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进程 数 /个 进程 数 /个 
图 4 10240 x 10240 4E E- AE 7? 25 JR. 图 5 20480 x 20480 4E F- 4E 32 25 JR. 
一 Fig. 4 Processing results of matrix with Fig. 5 Processing results of matrix with 
s 10240 x 10240 20480 x 20480 


为 了 体现 在 集群 上 的 数据 分 发 效果 ， 对 20 480 30 
x 20 480 矩阵 在 两 台 服 务 器 上 进行 处 理 ， 其 中 二 = EM d 
级 进程 数 为 4， 得 到 了 如 图 6 的 实验 结果 。 由 图 
6 的 结果 可 以 看 出 ， 在 集群 环境 下 树 发 方式 优 于 20 
平 发 方式 。 图 6 中 树 发 曲线 可 以 看 到 一 个 四 型 ， 
那 是 由 于 当 分 配 的 进程 数 较 少 时 ， 程 序 没有 充分 
利用 集群 中 的 图 形 处 理 器 ;， 当 进程 数 较 大 时 ， 又 10 
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会 出 现 多 个 进程 获取 同一 图 形 处 理 器 时 出 现 阻 塞 一 FR e 树 发 
的 问题 。 

综 上 ， 需 要 注意 的 是 在 进程 分 配 时 要 考虑 到 is B iB m 2 js 
图 形 处 理 器 个 数 和 中 央 处 理 器 核 数 ， 进 程 数 要 大 进程 数 /个 
于 图 形 处 理 髓 个 数 才 能 充分 利用 现 有 图 形 处 理 图 6 集群 中 20480 x 20480 JE TE AER 223 
器 ， 最 好 是 大 于 图 形 处 理 器 个 数 的 两 倍 。 因 为 Fig.6 Processing results of matrix with 


在 树 状 数据 分 发 下 " 一 般 需 要 有 与 KDE ATHE 20480 x 20480 in the cluster 
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数 相同 的 进程 作为 控制 进程 来 控制 与 第 3 级 子 进程 的 数据 分 发 与 接收 合并 ， 如 果 二 级 进程 数 少 于 图 形 
处 理 需 数 将 导致 数据 在 岁 形 处 理 器 之 间 来 回 发 送 ， 在 集群 环境 下 还 要 考虑 大 于 中 央 处 理 需 核 数 。 二 级 
子 进 程 的 数目 也 不 宜 过 多 ， 因 为 考虑 到 图 像 数据 处 理 的 特性 ， 过 分 地 拆 分 原 图 大 小 再 进行 重建 ， 合 并 
后 的 图 像 数 据 误差 可 能 增 大 ， 并 且 二 级 进程 的 数目 也 是 控制 进程 数目 ， 因 此 需要 合理 地 控制 二 级 进程 
的 数目 ， 使 得 三 级 数据 处 理 进程 大 于 控制 进程 。 


4 结束 语 


本 文 重点 讨论 了 并 行 计算 中 的 数据 分 发 机 制 ， 实 验 比 较 得 出 树 状 的 MPI + GPU 分 发 方式 相 比 平 
面 分 发 的 方式 有 较 好 的 优势 ， 这 为 高 分 辨 图 像 重 建 过 程 中 的 数据 分 发 方式 提供 了 一 个 很 好 的 参考 。 

除 MPI + CUDA 混合 模型 受到 广泛 研究 与 应 用 外 ，MPI + openMP 混合 编程 模式 由 于 能 充分 利用 共 
享 存储 模型 和 消息 传递 模型 的 优点 ， 在 很 多 领域 也 被 广泛 应 用 。 因 此 ，MPI + openMP + CUDA 混合 模 
型 的 性 能 和 可 行 性 逐渐 开始 被 研究 ， 在 天 文海 量 数据 处 理 上 的 应 用 将 是 下 一 步 研究 的 内 容 。 
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Abstract: The appearance of massive astronomical data has brought a lot of challenges to the development 
of astronomy software. In recent years, with the development of parallel computing technology, MPI + CPU 
mode has become the main mode for current high performance astronomical data processing gradually. For the 
problem of how to improve reconstruction performance in reconstruction of solar high resolution image, this 
paper has made systematic research on data reading and data distribution method. During traditional MPI 
parallel processing, master process cuts original image into sub-blocks, and then delivers sub-blocks into each 
sub-process for reconstruction, the results after reconstruction will be returned to the master process. When the 
number of sub-process is big and calculation nodes are few, this data distribution process will increase the time 
for communication significantly and affect the efficiency of the whole reconstruction process. This paper has 
proposed a tree data distribution method under MPI + CUDA and offered basic ideas and realization method of 
the algorithm. Experimental results have shown that tree distribution mode nearly doubles the speed than 
generally adopted plane distribution mode; its achievements provide certain reference for the development and 
processing of massive astronomical data. 
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